在数据集中定义样本之间有意义的距离是机器学习中的一个基本问题。最佳传输(OT)在样品之间提高特征(“地面度量”)到几何意义上的距离之间的距离。但是,通常没有直接的地面度量选择。有监督的地面度量学习方法存在,但需要标记的数据。在没有标签的情况下,仅保留临时地面指标。因此,无监督的地面学习是启用数据驱动的OT应用程序的基本问题。在本文中,我们首次通过同时计算样本之间和数据集功能之间的OT距离来提出规范答案。这些距离矩阵自然出现,作为函数映射接地指标的正奇异向量。我们提供标准以确保这些奇异向量的存在和独特性。然后,我们使用随机近似和熵正则化引入可扩展的计算方法以在高维设置中近似它们。最后,我们在单细胞RNA测序数据集上展示了Wasserstein奇异向量。
translated by 谷歌翻译